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Введение. Бурное развитие таких систем, как Уапдех, 
Ооозе и пр., предопределило актуальность задачи поиска 
подстрок в строке. На сегодняшний день активно иссле- 
дуются подходы к ее решению. Эта задача используется 
при создании систем управления базами данных, поддер- 
живающих ассоциативный поиск. Кроме того, она приме- 
нима при решении вопросов информационной безопасно- 
сти, создании антивирусных программ. Алгоритмы поиска 
подстрок в строке используются в задачах обнаружения, 
основанного на сигнатурах. 

Материалы и методы. Решение задачи базируется на 
алгоритме Ахо — Корасик, который представляет собой 
классический способ осуществления поиска подстрок в 
строке. Вместе с тем применен новый подход в части, 
касающейся предварительной обработки. 

Результаты исследования. Показана возможность постро- 
ения функции перехода и суффиксных ссылок при помо- 
щи суффиксных массивов и специальных отображений. 
Исследована взаимосвязь между префиксным деревом и 
суффиксными массивами. Это дало возможность разрабо- 
тать принципиально новый способ построения функций 
перехода и ошибок. 

Полученные результаты позволяют существенно сокра- 
тить время, затрачиваемое на предвыборную обработку 
множества строк образцов при использовании целочис- 
ленного алфавита. 

В статье приведено восемь алгоритмов. Оценены разрабо- 
танные алгоритмы. Полученные результаты сопоставлены 
с ранее известными. Доказаны две теоремы и восемь 
лемм. Приведены два примера, иллюстрирующие особен- 
ности практического применения разработанной процеду- 
ры препроцессинга. 

Обсуждение и заключения. Предложенная в данной статье 
процедура препроцессинга основывается на связи между 
суффиксным массивом, созданным на основе множества 
строк образцов, и построением функций перехода и оши- 
бок на начальных этапах работы алгоритма Ахо — Корас- 
ик. Такой подход отличен от традиционного и требует 
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использования алгоритмов, позволяющих построить суф- 
фиксный массив за линейное время. Таким образом, опи- 
саны алгоритмы, позволяющие существенно сократить 
время на предварительную обработку множества строк 
образцов при условии использования определенного типа 
алфавита по сравнению с известным подходом, предло- 
женным А. Ахои М. Корасик. 

Результаты исследований, приведенные в статье, могут 
быть применены в антивирусных программах, использу- 
ющих поиск сигнатур вредоносных информационных 
объектов в памяти вычислительной системы. Кроме того, 
данный подход к решению задачи поиска подстроки в 
строке позволяет значительно ускорить работу систем 
управления баз данных, применяющих ассоциативный 
поиск. 


Ключевые слова: поиск подстроки, алгоритм Ахо — 
Корасик, префиксное дерево, суффиксный массив, поиск 
информации, функция ошибок, функция перехода. 
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Введение. В настоящее время существенно возрастает важность обеспечения кибербезопасности рас- 
пределенных информационных систем и отдельных вычислительных средств [1]. Диапазон таких задач доста- 
точно широк [1-10]. Особое место занимают вопросы создания эффективного антивирусного программного 
обеспечения (ПО). Одной из важнейших задач, решаемых таким ПО, является поиск подстрок в строке [1, 5, 6, 
10-13]. 

Материалы и методы. Задача поиска подстрок заключается в нахождении всех строк в тексте Т общей 
длиной т, совпадающих с каким-либо образцом из заданного множества образцов Р. Положим, сумма длин 
всех элементов Р, состоящих из символов алфавита /, равна п. Решение этой задачи было предложено А. Ахо и 


М. Корасик [6, 10]. В их алгоритме время предвыборной обработки составляет О(т! |, а время поиска — 


О(т! |+ К) . Здесь К — количество совпадений, найденных в тексте со строками, принадлежащими множеству 


образцов. 

В настоящее время задача поиска подстроки в строке активно исследуется по двум причинам: 

— поисковые системы активно развиваются [11]; 
— процесс обнаружения в антивирусных программных продуктах основывается на сигнатурах [1]. 

В этой связи были созданы алгоритмы, которые приходится выбирать в зависимости от определенных 
потребностей пользователя. Новейшие результаты, полученные при решении задачи поиска множества под- 
строк, описаны в работе [13]. 

Представленные в данной статье результаты основываются на связи между суффиксным массивом, со- 
зданным на основе множества строк образцов, и построением функций перехода и ошибок на начальных этапах 
работы алгоритма Ахо — Корасик. Такой подход отличен от традиционного и требует использования алгорит- 
мов, позволяющих построить суффиксный массив за линейное время. Итак, в статье описаны алгоритмы, с по- 


мощью которых время выполнения предвыборной обработки сокращается до О(п) 


* . 
Пусть задан алфавит [, множество образцов Р={В,Ь,...,В;| ‚ ге Ре/ , 1=ЬК. Обозначим через 
К < < 
п = > ИВ . Будем считать, что алфавит /[ представляет собой ограниченный промежуток целых чисел. Грани- 
1= 


* 
ца может зависеть от длины рассматриваемой строки 5Е/ либо представлять собой промежуток [0, с] ‚ гдес 


—щ натуральное число: с> |5 . Пусть & Е / — пустая строка. 


Пусть вою — функция перехода, а {аЙиге — функция ошибок. Приводимые модификации касаются ме- 
тодов построения упомянутых функций, используемых в алгоритме Ахо — Корасик [6, 10]. 


Информатика, вычислительная техника и управление 


> 
о 
— 


БИр://уезбиК.Чоп$ва.га 


К) 


Вестник Донского государственного технического университета. 2019. Т. 19, № 3. С. 290-300. 155М 1992-5980 е155М 1992-6006 
Резник оГроп 5вие Тесйшса Отуегуйу. 2019. Ио. 19, по. 3, рр. 290-300. 155М 1992-5980 е155 М 1992-6006 





* 
Положим, 5и/А77(5) — некоторый алгоритм построения суффиксного массива для строки 5Е/Г за 


линейное время. Описание таких алгоритмов можно найти, например, в [12—15]. 


* 

Пусть х,уЕГ . Тогда, [ср(х,у) — наибольший общий префикс строк хиу. 

Рассмотрим строку 5ЕГ у И $[5[0]5[1..5[и-—1]. Пусть $[5 [152 +1]...$[ Л| — подстрока 5, включаю- 
щая символы от? до], где 1< у, 1,1 =0,п-1. Обозначим через р, суффиксный массив, соответствующий 
строке 5. Пусть 

ру = Ру [ 50] ру... [п], 
то есть 5] 5[25[0]..5["-1] е 5[ 5 [2;[1]...5 [и -П| нь 5[ 5 [5 [п —1]-..5 [п -П| 

Для построения суффиксного массива будет использован алгоритм, описанный в [15]. 

Положим, а; #1, и *а,, 1<1<]<^+1, @ <9> <...< 91. Пусть УБеГ а; <Б, где 1<1<К+1. 
Допустим, что Р*@, арйа = {0,0 ,. бб} | 

Алгоритм обработки суффиксного массива р. 

Здесь зе Г: 5 =01 Аа»... Во, ВР; еГ, 1<1<. 

Ааарапоп (5, т арйа) 

|. пеу’_аттау < 8 


2.10 (: < арйа #++) { 





<} 





3.1 < 0 
4. ийЦе (5 [55 [11...59 -П [7 [2 арпа) { 


Е пе» аттау| [7] <—5| $р, [2]... 8] 1 
6. < 1+1 

7. } 

8. } 


9. огаегеа_ Пя [0] < пез? атгау [о] 


10. /ог (1—1; < [$] -|а/рйа #++) { 





11.7=—0 
2, И (пем’_ аттау[Й == пеу’ _ атау[!—!]) { 


13. от4еге4_1154 [1 | < пеу аттау | | 


14. < 7+1 

15. } 

16. } 

[7. гаити отаегеа_ [5 


Лемма 1. Пусть Р = |В,Р, | ‚ 5=09В0>Р...а, В, 0-1. Гогда алгоритм Адараноп строит массив 


лексикографически упорядоченных суффиксов образцов, принадлежащих Р, за время 0(|5 _ [рва] | 


Доказательство. В цикле 2—8 выполняется построение массива пеу’ а’тау, 1-й элемент которого пред- 
ставляет собой такой префикс соответствующего суффикса 5, который включает в себя все символы данного 
суффикса, начиная с нулевой позиции до его первого элемента, принадлежащего множеству арйа. При этом 


при помощи с иксного массива перебираются все с иксы 5 согласно их лексикографическому поряд- 
К) 


ку. Таким образом, массив пеу’ аггау состоит из всех суффиксов образцов, принадлежащих Р согласно их лек- 
сикографическому упорядочиванию, причем возможно повторение некоторых суффиксов. Заметим, что из рас- 
смотрения исключаются все строки, начинающиеся с символов, принадлежащих массиву а[рйа, то есть первые 


|@рйа суффиксы. Далее в цикле 10-16 при помощи массива пеу’ аггау строится массив огаегей_ 151 путем ис- 


ключения повторяющихся строк. Для этого в силу лексикографического порядка следования строк достаточно 
проверить, совпадает ли рассматриваемая строка с предыдущей. 
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Цикл 2-8 выполняется за время 0(|$]|-|а1рйа]) , поскольку из рассмотрения исключаются все строки, 
начинающиеся с символов, принадлежащих массиву арйа. В цикле 10—16 происходит |5] — |а/рйа] сравнений 


строк. Таким образом, получаем асимптотическую оценку времени работы алгоритма 0(|$]|-|айрйа]}. Лемма 


доказана. 
Алгоритм разбиения согласно лексикографическому упорядочению 
Здесь 5 — массив лексикографически упорядоченных строк. 


РапаС (5) 

1. зи [0] < 0 

2.1 <0 

3. Лог (1=—0;1<|$]-11++) { 


4. И (Я = [1+1] { 
5. зи6 [1 | < {+1 

6. < 7+1 

7. } 

8. 5иБ [7 — 5 

9. гаити 5иБ 


Лемма 2. Алгоритм ДапаС на основе массива лексикографически упорядоченных строк 5 строит массив 
5иб, состоящий из целых положительных чисел, указывающих индексы, соответствующие первым строкам сре- 


ди строк, у которых равны первые символы, за время 0(|) 


Доказательство. Граница, соответствующая первому символу, начинается с 0, что соответствует при- 
сваиванию, выполняемому на шаге 1. В цикле 3—7 последовательно сравниваются первые символы 1-Й и (1 + 1)- 





й строк, где 1=0, 5] —2. Если символы не равны, то в массив 5иБ записывается начало границы, соответствую- 


щей следующему символу. В противном случае выполнение цикла продолжается. Правая граница последнего 
символа соответствует количеству строк в массиве 5 (шаг 8). 


Сравнение на шаге 4 происходит за время (1) ‚ как и запись на шаге 5 и инкрементирование на ша- 


ге 6. Таким образом, цикл 3—7 выполняется за время 0(|5]) . Лемма доказана. 

Алгоритм построения первой связи 

Здесь "ее — дерево, [ех _ иогах Е [ ” ‚ Пик _ пит — номер некоторого символа строки [ех _ мог ‚ у — 
порядковый номер нового узла, который присоединяется к узлу с порядковым номером иоае _ питБег. 

ВийаР15Илик (тее&, [ех _ могау &, у&, Пик _ пит, поае _ питфег) 

1. пеу? тее.поае |] 

2. (тее.по4е [|] „5сие <— [ех имога$ [/ех _ иога$О]../ех _ иот[Итк] | 

3. пем’ тее.по4е [по4е _ питье | „Пик <— тее.поае |] 


4. (гее.по4е [по4е — питье | „Пик.5утбо[<— [ех_мота5 | ШК _ пит | 


5. У<У-| 
Лемма 3. Алгоритм ВийаЕ5Илик осуществляет построение нового узла с порядковым номером у и ду- 


ги, ведущей от узла пойе_питьег к новому узлу ъ, в дереве {тее за время (1) | 
Алгоритм построения связи с подстрокой 
* < < 
Здесь ее — дерево, [ех _ мот ЕГ ‚ у — порядковый номер нового узла, который присоединяется к 


узлу с порядковым номером 5а7. 


Вийа$иБ5 те Лик (тее&, [ех _ иог45&, у&х, 5ватт) 


1. юг (^ <— маи; К < [ех _ мот 





++) { 
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2. пе’ тее.поае |] 
3. тее.по4е |] „5 <— [ех_ уога$ [/ех _ иога$О]../ех _ мот] 
4. пеи’ гее.поае [у — || „Пик <— тее.по4е [] 


5. гее.по4е [у _ || „Пик.5утро[ < [ех_мота5 [К] 


6. у<у+1 
а. 
Лемма 4. Алгоритм Вийа$ирятте[алиК осуществляет построение новых узлов в дереве {тее, соответ- 


ствующих всем префиксам строки [ех_уота$, начиная с префикса [ех_ иога$ [/ех _ уого[О]..41ех _ ог [ат | 
за время О([ех _ мот — 51) 

Алгоритм построения последней связи 

Здесь "ее — дерево, [ех _ мога Е 1 " ‚ у — порядковый номер новой дуги, [ — алфавит. 

ВиИаГазИлик (тее&, [ех _ мога$, у, [ ) 

1. пе? (тее.поае [о] ИтЕ[у| — п'ее.поае [0] 

2. зутро[ < © 


3. юг (. — 0;1< [ех _ мот 





#++) { 
4. зутБо[5 [1] < ([ех_ мога$ [О] 
5.] < 0 

6. ог (= 0;1 < 





#++) { 

7. (ПЛ я зутБов) { 

8. п'ее.по4е [0] ИтЕ[у] 5утро [7] <= ПП 
9. 1<— 7+1 

10. } 

11.} 


Лемма 5. Алгоритм ВиИаГазИлик строит при корневом узле петлю. Ее пометка соответствует множе- 
ству символов, по которым невозможно перейти в другие узлы дерева ее из корневого узла за время 


О([ех мог] +| |) 


Алгоритм построения переходов 
Здесь [ех _ иог4$ — массив лексикографически упорядоченных строк. 


Стеше[лик (1 ех _ ига 


1. и < © 
2. виБ < ОапаС (1ех — мот) 


3. ух 1 
4. тее < © 


5. тее.по4е [о] „5(е < 5 

6. ог (#<— 0;1 < [ви] —11++) { 

7. ВиНаЕи$Илик (те, [ех _ иога5 [ий | ‚у, 0, 0) 

8. ВиНазибу те ик (те, [ех _ мот [и [| ‚У, 1) 

9. ог (1 < 5иИ ПБ] < зи +1; ++) { 

10. етр < Ср (1ех_ мое 7 — |,[ех _ мот +1 

11. < тее.зекиеМитьБег( [ср (1ех _ иога$[ 7 -—П[ех _ мога$[ 7] ) 
12. ВиПаЕи$Илик (1тее, [ех _ мога$[ 7], у етр, 2) 
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13. Вий$ир5 те Лик (ее, [ех _ иога5 | 7 | У, етр} 

14. } 

р. 

16. ВипаГа;Илик (те, [ех _ мот, у[ех _ иота 

[7. гаиги 1тее 

Лемма 6. Алгоритм СтежшеМик осуществляет построение префиксного дерева {ее с петлей при корне- 


|[ех в ига -1 


ый |[ех _ нотам 


вом узле за время с 


Доказательство. На шаге 2 выполняется алгоритм ДапаС (см. лемму 2), после чего на шаге 5 создается 
корневой узел с порядковым номером 0 дерева {тее. Его состояние полагается равным пустой строке &. Рас- 
смотрим цикл 6-15 на 1-м шаге работы. 

На шаге 7 при помощи алгоритма ВийаР 5 Илик создается узел, состояние которого соответствуют пер- 


вому символу строки [ех _ ога [и [7 |. Учитывая построение массива 5иб, можно утверждать, что такой сим- 


вол прежде не встречался среди первых символов предыдущих строк. Тогда на шаге 8 реализация алгоритма 
ВиПа5ибуттеЛик последовательно создает узлы, состояние которых соответствует всем префиксам строки 


[ех _ мог [и] ‚ исключая префикс, построенный в предшествующей строке. 
В цикле 9-14 при помощи алгоритмов ВийаЕ $ Илик и ВиНа5ибятте[атК выполняем те же действия со 
строками, лежащими в целочисленном промежутке [би -1, 5иБЁ +1-1]. Поскольку у каждой такой строки 


есть общий ненулевой префикс с предыдущей строкой, то алгоритм немедленно переходит в состояние, соот- 
ветствующее наибольшему общему префиксу, начиная с которого необходимо строить новые узлы. На шаге 16 
при помощи алгоритма ВийаГазИлик создается петля при корневом узле. 

Шаги 12 и 13 выполняются за время 


О(1)+ О(ех_ у’отеб И _ р (1ех_ у’отеб [7 _ 1] „[ех _ мог [1 _ у = 


= О(1ех_ мот] — Иер (1ех _ уогаб [7 — 1] „[ех _ иога$ [1] 


Таким образом, из лемм 2, 3 и 4 следует, что цикл 9-14 выполняется за время 


Ы 
ое иоаз[ 7 = «р ( (1ех _ мог [= 1], [ех _ нота Л 


Цикл 6-14 выполняется за время 


с[У. С [ех _ иогаб БынА] + 


ое иотаз [| = «р [ех _ мой [7 — 1], [ех _ нон} 
= 1=5иб 


[би] —1 
=оО [ех_ мото [ зи [7] |--|ех_ мое] |. 


1=0 


|ех м ига 
Из леммы 5 следует, что шаг 16 выполняется за время ох вонь ) 
1= 


[ех _ мога$ 0] 


Таким образом, получаем асимптотическую оценку времени работы алгоритма 


О([ех — этот} + с (У. ка [ех _ иогаб [5и ] — [ех — нота Е 
ра 


+О [е — иоте] + >. т в [ех _ ОГ 0] =О [> в ры [ех _ Ога 0] 
1- [= 


Лемма доказана. 
Алгоритм построения функции 200 
Здесь Р — множество строк образцов. 


СопятгисЮою (Р) 


1. 5 < 0 Ао>Р>...04. В; 041 
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2. р; < зиЙАи(5) 

3. арйа <— {0,92 .. об! 

4. отаеге4_П51 < Ааарайоп (5, вы рва) 
5. < 0 

6. [ех_ ога < © 


7. Р [епей < В ь 








} 


8. Лог (#=0;1 < 





++) 
9. ((огегеа _ И еЕР_[епо1й) апа (отаегеа _ ПУ] Е Р)) 
10. [ех_иога$ [71++] < огаегей _П5П 


11. гою < Сгеше“лиК(ех _ иога$) 


12. гешти 2010 


[4 
Напомним, что и = > [В для множества образцов Р= {В, Еее В, } 
1= 


Теорема 1. Алгоритм Сопягисою строит функцию го за время О(п) 


Доказательство. На шаге 2 строится суффиксный массив р; для строки 5. На шаге 4 при помощи алго- 


ритма Аааранйоп в массив огаегей_ [5 записываются все суффиксы строк, принадлежащих множеству образцов 
Р. При этом не исключены повторения. В цикле 8—10 строится массив [ех_мога$, содержащий суффиксы, при- 
надлежащие Р, расположенные в лексикографическом порядке без повторений. На шаге 11 происходит постро- 
ение префиксного дерева с петлей при корневом узле на основе строк, которые содержатся в массиве [ех_и’огаб. 
Структура данных, возвращаемая алгоритмом Стеше[лт^, в точности задает функцию 20. 


Шаг 2 выполняется за время О(п+К+1) [12]. Из леммы 1 следует, что шаг 4 выполняется за время 


О(п ++1-А-— 1) = О(п) . В цикле 8—10 рассматриваются только строки, длина которых равна длине какого- 


либо образца. 


Таким образом, потребуется не более О(п) проверок для нахождения образцов Р. Из леммы 6 следует, 


|[ех № мот -1 


а |[ех _ нота =О(п). Так как А < п ‚ получаем асимптоти- 
1= 


что шаг 11 выполняется за время с] > 


ческую оценку времени работы алгоритма О(п) + О(п +А+ 1) = О(п) . Теорема доказана. 
Результаты исследования 
Пример 1. 
Пусть Р= { опе, оп, опсе, сей, иИ,еуе, пеаг} .‚ Тогда 
5 = ал опеаропозопсеодсеПаиПовеуеал пеагов . (1) 
В табл. 1 представлен результат работы алгоритма построения функции го при поступлении на вход 


строки 5 (1). 
Таблица 1 


Структура префиксного дерева 


Номер Состояния, в которые ведут ветви Символы на ветвях Дик от 
Состояние ипоае 
поае Дик от поае поае 


1.с;:2.е;: 3. 1:4.п;5.0 1.с;:2.е;: 3. 1:4.п;5.0 
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Номер Состояния, в которые ведут ветви Символы на ветвях Дик от 
Состояние ипоае 
поае Дик от поае поае 


и 1. 1.1 
0 [7 1. м 1.1 
т 
2 1.е 
3 1. пеа 1.а 
4 1. пеаг 1.7 
5 
6 1. оп 1. и 


й 1. опс; 2. опе 1.с;2.е 


1. оисе 1.е 


Пусть 9 =а; В. ах... Во В) — зеркальное отражение строки 5. 





Алгоритм построения функции ошибок /аЙиге 
Здесь Р — множество строк образцов. 


Бабеби(Р) 

1. < а; 1В. ау... Ра В) 

2. р; < эиЙ Аг ($) 

3. арйа < {0,9 . | Зорб 

4. огдеге4_ 11$: <— Адарайоп (5 ‚р ‚рйа) 
5. Дик < © 

6. ог (<= 0;1<|5 
7. апйк[й < 8 

8. зи < ДапаС (ог4еге4 — [51 
9. 5" <— © 

10. о" (1—0; < [би —11++) 





++) 


И. Юг (1 < зи Д; 1 < зи + - В ++) 

12. 5" [7] <= /ср(огаеге4 _ [58 7], огаеге4 _ [5 + | 
13. ог (; < 0;1< [5и | -11++) 

14. ог (К < 5и +|-БК > зи ПК --) { 

15. ог (1<5и МИ; <; ++) 

16. тт_еетет < т (5-1, 5—2]... Л) 
И.И (пит _ е/етеи! = |огеге4 _ 15 7) 

18. шш етр [7 —5и Й] <— тт_еетеп! 


19. } 


20. тах_еетепи <— тлах (ти _ {етр[0], пи _(етр[],...,пиа етр[м]) 
21. найти тах_таех: шш_етр [лах_иа4ех | = тах @етет 
22. [тк [К] < огаегеа _ [5 [лах_ таех + 5и | 


23. } 
24. дог (<= 0;1 < [тик 
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25. Пи ИО] < огаегеа _ Пя |` ; зеркальное отражение строки 


26. ПИ] < тым ; //зеркальное отражение строки 
Ту 


28. гаитп Пик 

Замечание. В строке 20 < 5и 1+ П-5и -1. 

Теорема 2. Алгоритм Рабези} строит функцию ошибок /аЙиге за время О(и). Доказательство. На ша- 
ге 1 строим массив символов, содержащий зеркальные отображения строк, принадлежащих множеству образ- 
цов Р, и некоторые уникальные символы. На шаге 2 строим суффиксный массив р; для строки 5. На шаге 4 
при помощи алгоритма Адарайпоп в массив огаегеа_ [5 записываются все суффиксы строк, принадлежащих 
множеству образцов Р (множество образцов, состоящее из зеркально отраженных строк Р), при этом не ис- 
ключены повторения. На шаге 8 выполняется алгоритм РапаС (см. лемму 2), после чего в цикле 10—12 находим 
длину наибольшего общего префикса между строками, у которых совпадает первый символ. Записываем ре- 
зультат в массив 51". Заметим, что эта величина равна нулю у строк, для которых данное условие не выполняет- 
ся. В цикле 13—23 строится специальное отображение между строками, у которых совпадает первый символ. 
Опишем это отображение. Зафиксируем некоторую строку 


5 е огаегей _ [51 | ог4еге4 _ [5 [ий | .... огаегеа _ 151 [5 П + - || 
Рассмотрим множество, состоящее ИЗ строк, принадлежащих 


огдеге4 _ 151 | опдеге4 _ 151 [ий |,..., ог4еге4 _ 15 [56 1+1-1]. Их длина равна длине наибольшего общего 


префикса с 5, исключая само 5. Из этого множества найдем строку 5’, которая имеет наибольшую длину, и по- 
ставим ее в соответствие 5. Очевидно, что построенное отображение является биекцией при условии 5’=8. 
Полученный результат записывается в массив т/лик. В цикле 24—27 при помощи массива т/лик явно указываем 
построенное отображение, при этом зеркально отражая каждую из строк. Таким образом, ставим узлу $ пре- 
фиксного дерева, построенного на основе массива образцов Р, в соответствие узел 5’. Его состояние равно 
наибольшему собственному суффиксу 5 , который встречается среди множества состояний рассматриваемого 
префиксного дерева. Но согласно определению функции ошибок /аЙиге это и есть искомый результат. 


К 
Пусть и = > [В . Шаг 2 выполняется за время О(п+к-1) [12]. Из леммы 1 следует, что шаг 4 вы- 
1 = 


полняется за время О(п +А+1-—А^ —1) = О(п) . Цикл 6-7 выполняется за время О([5 | = О(п) . Из леммы 2 следу- 


ет, что  шаг8 выполняется за время О(п) . Цикл 10-12 выполняется за время 
Ь-2 Ы 1-1 
[у Хиты — О(к ), М7 = 1. Цикл 14—23 выполняется за время 


5иб [1+1 к 5иб [1+ -5и 61-2 
О ‚ |= О ‚ |= О(5иБТ+П-5иЙ-Т), М] И 
их, ип" У 7—0 ',) (5 р - ) 1!) 


Тогда цикл 13—23 выполняется за время 
[5и6|--2 , , 
с[ У." (ви +0-змий-1) = О(5иь[[5и6| - 1) = (К). 
Поскольку тт <п, то цикл 24—27 выполняется за время О([тЬт]) = О(п). Итак, учитывая, что 


К <пи, получаем асимптотическую оценку времени работы алгоритма О(п) + О(п +А+ 1) + О(К) = О(п) . Тео- 


рема доказана. 
Пример 2. 
Пусть, как и в примере 1, Р= { опе, оп, опсе, сей, иИ, еуе, пеаг} . Тогда 
5 = озтаеполеуеав Иша Песадесповзпобрепос\ . (2) 
В табл. 2 представлен результат работы алгоритма построения функции /аЙиге при поступлении на 
вход строки $ (2). 


Мазуренко А. В. и др. Ускоренный препроцессинг в задаче поиска подстрок в строке 


МазигепКо А. И., её. а. Асс@егие4 ргергосехт? т а5Е о} 5еагсши? зибутт2у т а 5ття 





Таблица 2 


Ложные связи между узлами 


ве в бе | ве | № ое. 


Для всех узлов, для которых на рис. 1 не указаны ложные связи, полагаем, что ложная связь ведет к 





корневому узлу. 
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Рис. 1. Префиксное дерево с ложными связями 


Обсуждение и заключения. Описана новая процедура препроцессинга в алгоритме Ахо — Корасик. 


Она выполняется за линейное время О(п). Исследована связь между суффиксными массивами и префиксным 


деревом, что позволило предложить иной способ построения функций перехода и ошибок. Полученные резуль- 
таты позволяют сократить время на предвыборную обработку множества строк образцов при использовании 
целочисленного алфавита. 
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